導(dǎo)讀:開(kāi)搶了!雙11創(chuàng)業(yè)者優(yōu)選服務(wù)!我們經(jīng)常談?wù)摰挠脩艟?xì)化運(yùn)營(yíng),到底是什么?簡(jiǎn)單來(lái)講,就是將網(wǎng)站的每個(gè)用戶標(biāo)簽化,制作一個(gè)屬于他自己的網(wǎng)絡(luò)身份證。然后,運(yùn)營(yíng)人員通過(guò)身份證來(lái)確定活
發(fā)表日期:2019-08-04
文章編輯:興田科技
瀏覽次數(shù):11693
標(biāo)簽:
開(kāi)搶了!雙11創(chuàng)業(yè)者優(yōu)選服務(wù)!
我們經(jīng)常談?wù)摰挠脩艟?xì)化運(yùn)營(yíng),到底是什么?簡(jiǎn)單來(lái)講,就是將網(wǎng)站的每個(gè)用戶標(biāo)簽化,制作一個(gè)屬于他自己的網(wǎng)絡(luò)身份證。
然后,運(yùn)營(yíng)人員通過(guò)身份證來(lái)確定活動(dòng)的投放人群,圈定人群范圍,更為精準(zhǔn)的用戶培養(yǎng)和管理。
當(dāng)然,身份證最基本的信息就是姓名、年齡和性別。與現(xiàn)實(shí)不同的是,網(wǎng)絡(luò)上用戶填寫(xiě)的資料不一定完全準(zhǔn)確,還需要進(jìn)行進(jìn)一步的確認(rèn)和評(píng)估。
下面我來(lái)介紹一下具體的識(shí)別思路。
一、用戶畫(huà)像需要的數(shù)據(jù)
用戶平時(shí)在電商網(wǎng)站的購(gòu)物行為、瀏覽行為、搜索行為,以及訂單購(gòu)買情況都會(huì)被記錄在案,探查其消費(fèi)能力,興趣等。數(shù)據(jù)歸類后,一般來(lái)講,可以通過(guò)三類數(shù)據(jù)對(duì)用戶進(jìn)行分群和定義。
1、用戶信息
社會(huì)特征:馬克思的人性觀把人分為社會(huì)屬性和自然屬性。社會(huì)特征主要指的是人在社會(huì)上的階級(jí)屬性,當(dāng)然也包括服從性、依賴性或者自覺(jué)性等,這是人類發(fā)展的必然的基本要求。
自然特征:也可以說(shuō)成是人的生物性,通常來(lái)講可以是食欲,物欲或者購(gòu)買欲,自我保存能力。但不同人會(huì)有不同的自然特征,比如學(xué)習(xí)能力和邏輯思維等。
興趣特征:對(duì)于電商來(lái)講,主要是對(duì)某件商品,某個(gè)品牌或者品類的興趣程度,如加購(gòu)、瀏覽、收藏、搜索和下單行為。
消費(fèi)特征:消費(fèi)能力的評(píng)估,消費(fèi)傾向的評(píng)估,能夠判斷用戶的消費(fèi)層級(jí),是高消費(fèi)力還是低消費(fèi)力。
2、商品
商品屬性:基本信息,品類,顏色尺碼型號(hào)等。
商品定位:商品層級(jí),是否為高中低端,商品類型傾向于哪類客戶,區(qū)域或者其他的特征。
最后通過(guò)以上的信息來(lái)獲取用戶信息,判斷其具體的畫(huà)像特征,然后得到類似于醬紫的網(wǎng)絡(luò)身份證。
通常,拿到數(shù)據(jù)后,我們會(huì)將每個(gè)環(huán)節(jié)進(jìn)行拆解,落實(shí)到具體的行動(dòng)策略上。大體可以根據(jù)以下流程進(jìn)行模型的預(yù)估:
業(yè)務(wù)目標(biāo):精準(zhǔn)投放——針對(duì)已有產(chǎn)品,尋找某性別偏好的精準(zhǔn)人群進(jìn)行廣告投放。
技術(shù)目標(biāo):對(duì)用戶購(gòu)物性別識(shí)別——男性,女性,中性。
解決思路:選擇一種分類算法,建立spark模型,對(duì)模型進(jìn)行應(yīng)用。
線上投放:對(duì)得到的數(shù)據(jù)進(jìn)行小范圍內(nèi)的測(cè)試投放,初期不宜過(guò)大擴(kuò)大投放范圍。
效果分析:對(duì)投放的用戶進(jìn)行數(shù)據(jù)分析,評(píng)估數(shù)據(jù)的準(zhǔn)確性。若不夠完美,則需要重新建模和測(cè)試。
二、產(chǎn)品如何理解建模過(guò)程
重點(diǎn)來(lái)了,雖然能夠通過(guò)用戶的行為、購(gòu)買和興趣數(shù)據(jù),了解用戶的基本信息,但是仍然不清楚如何建模?用什么語(yǔ)言建模?
其實(shí),購(gòu)物性別的區(qū)分使用的是spark,但是spark也有很多分類,包含邏輯回歸,線性支持向量機(jī),樸素貝葉斯模型和決策樹(shù)。那么,又該如何選擇呢?
其中,決策樹(shù)的優(yōu)點(diǎn)較多,主要是其變量處理靈活,不要求相互獨(dú)立。可處理大維度的數(shù)據(jù),不用預(yù)先對(duì)模型的特征有所了解。對(duì)于表達(dá)復(fù)雜的非線性模式和特征的相互關(guān)系,模型相對(duì)容易理解和解釋??雌饋?lái)決策樹(shù)的方法最適合區(qū)分性別特征了,所以決定用決策樹(shù)進(jìn)行嘗試。
什么是決策樹(shù)?簡(jiǎn)單來(lái)講,是通過(guò)訓(xùn)練數(shù)據(jù)來(lái)構(gòu)建一棵用于分類的樹(shù),從而對(duì)未知數(shù)據(jù)進(jìn)行高效分類??梢詮南旅娴膱D了解決策樹(shù)的工作原理。
構(gòu)造決策樹(shù)的步驟為:
起始階段,所有歷史數(shù)據(jù)當(dāng)作一個(gè)主節(jié)點(diǎn);
我們選擇某個(gè)屬性測(cè)試條件用于分割節(jié)點(diǎn),以擇偶標(biāo)準(zhǔn)模型為例,把長(zhǎng)相作為首節(jié)點(diǎn);
將長(zhǎng)相節(jié)點(diǎn)分割,以帥和丑作為條件,導(dǎo)致的結(jié)果作為其子節(jié)點(diǎn),如分割成牽手和是否公務(wù)員;
對(duì)子節(jié)點(diǎn),如牽手和是否公務(wù)員,繼續(xù)執(zhí)行第2、3步,直到節(jié)點(diǎn)滿足停止分割的條件。
通過(guò)訓(xùn)練數(shù)據(jù)來(lái)構(gòu)建一棵用于分類的樹(shù),從而對(duì)未知數(shù)據(jù)進(jìn)行高效分類。
以上步驟中,能夠得出一個(gè)結(jié)論,在構(gòu)建決策樹(shù)的過(guò)程中,最重要的是如何找到最好的分割點(diǎn)。決策樹(shù)值得注意的問(wèn)題是過(guò)擬合問(wèn)題,整個(gè)算法必須解決「如何停止分割」和「如何選擇分割」兩個(gè)關(guān)鍵問(wèn)題。
最簡(jiǎn)單的做法就是設(shè)定樹(shù)的深度或枝葉的最少樣本量。但是,過(guò)少的樣本量又不具有代表性,所以一般情況,可以使用交叉驗(yàn)證的方法。交叉驗(yàn)證就是可以使用一部分?jǐn)?shù)據(jù)用于模型的訓(xùn)練,另一部分?jǐn)?shù)據(jù)可以用來(lái)評(píng)估模型的性能。業(yè)內(nèi)常用的劃分方法是講樣本進(jìn)行50/50分,60/40分或者80/20分。
三、模型確立過(guò)程
在建模前期,首要考慮的事情就是先確定指標(biāo),以及對(duì)樣本的定義。購(gòu)物性別指的是什么?通過(guò)哪些數(shù)據(jù)來(lái)確定購(gòu)物性別,樣本的準(zhǔn)確性,如何驗(yàn)證數(shù)據(jù)的可信度等。
四、購(gòu)物性別的定義
先看下圖,具體的邏輯可從圖中查看。一般來(lái)講,用戶填寫(xiě)的資料不一定真實(shí),我們對(duì)他/她的性別數(shù)據(jù)持懷疑態(tài)度,所以,就需要其他數(shù)據(jù)進(jìn)行輔助證明其性別。
訂單數(shù)據(jù)能夠真實(shí)反映用戶的購(gòu)買心態(tài),預(yù)測(cè)購(gòu)買行為,并且能夠通過(guò)購(gòu)買商品的所屬類別,判斷用戶的購(gòu)買傾向,最后得到性別特征類目。不過(guò)本文就不展開(kāi)探討甄別特征類目的區(qū)分方法了。
根據(jù)數(shù)據(jù)結(jié)果,最終,確認(rèn)了購(gòu)物性別的定義。分為:
購(gòu)物性別男:N月購(gòu)買的男性特征類目子下單數(shù)> N月購(gòu)買的女性特征類目子下單數(shù);
購(gòu)物性別女:N月購(gòu)買的男性特征類目子下單數(shù)> N月購(gòu)買的女性特征類目子下單數(shù);
購(gòu)物性別中性:未下單男女特征類目。
N需要具體根據(jù)業(yè)務(wù)場(chǎng)景來(lái)定。
五、建模數(shù)據(jù)準(zhǔn)備過(guò)程
本節(jié)是具體的操作過(guò)程,模型的實(shí)操階段。一般來(lái)講,不同模型的訓(xùn)練其實(shí)大體雷同。從技術(shù)上來(lái)講,各家算法大多使用spark,不同點(diǎn)是所運(yùn)算的模型都是針對(duì)于場(chǎng)景來(lái)定的。
在全部樣本中,取80%的數(shù)據(jù)用于訓(xùn)練模型;
在全部樣本中,取20%的數(shù)據(jù)用戶數(shù)據(jù)測(cè)試。
這種方式可以更好的根據(jù)數(shù)據(jù)的規(guī)模,提高模型的準(zhǔn)確性。
六、模型效果分析
根據(jù)各類參數(shù)的評(píng)估結(jié)果,以及人工經(jīng)驗(yàn)選定的模型參數(shù),建立模型。值得注意的是,決策樹(shù)的深度不要過(guò)深,以防止過(guò)擬合的問(wèn)題:
行業(yè)內(nèi)當(dāng)前采用數(shù)據(jù)挖掘、機(jī)器學(xué)習(xí)和推薦系統(tǒng)中的評(píng)測(cè)指標(biāo):準(zhǔn)確率(precision)、召回率(Recall)。準(zhǔn)確率是應(yīng)用最廣的數(shù)據(jù)指標(biāo),也很清晰易懂,以男性為例:
準(zhǔn)確率=命中的男性用戶數(shù)量/所有預(yù)測(cè)男性數(shù)量,一般來(lái)講,準(zhǔn)確率可以評(píng)估模型的質(zhì)量,他是很直觀的數(shù)據(jù)評(píng)價(jià),但并不是說(shuō)準(zhǔn)確度越高,算法越好。
召回率=命中的男性用戶數(shù)量/所有男性數(shù)量,反映了被正確判定的正例占總的正例的比重。
模型建立完后,需根據(jù)模型的結(jié)果與預(yù)期的對(duì)比,進(jìn)行調(diào)優(yōu)。
七、最后要說(shuō)的
購(gòu)物性別定義對(duì)于用戶精準(zhǔn)營(yíng)銷十分重要,疑難雜癥,對(duì)癥下藥,才能出現(xiàn)更好的療效。
更多新聞
2023
作為中國(guó)最繁忙和發(fā)達(dá)的都市之一,上海市場(chǎng)中的競(jìng)爭(zhēng)異常激烈。。為了在這個(gè)市場(chǎng)中脫穎而出,網(wǎng)站所有者需要...
View details
2023
引言在當(dāng)今數(shù)字化時(shí)代,擁有一個(gè)個(gè)人或商業(yè)網(wǎng)站已經(jīng)成為了非常重要的事情。。網(wǎng)站可以作為展示產(chǎn)品和服務(wù),...
View details
2022
現(xiàn)在幾乎所有的企業(yè)都會(huì)建設(shè)屬于自己公司的網(wǎng)站,畢竟線上渠道成為了銷售以及宣傳推廣的主要渠道,如果沒(méi)有...
View details
2023
作為現(xiàn)代商業(yè)的核心工具,互聯(lián)網(wǎng)為企業(yè)提供了無(wú)限的商機(jī)。。而網(wǎng)站優(yōu)化網(wǎng)絡(luò)營(yíng)銷正是能夠幫助企業(yè)提升品牌曝...
View details